Examples of HTMLStripCharFilter

org.apache.lucene.analysis.charfilter.HTMLStripCharFilter
org.apache.solr.analysis.HTMLStripCharFilter
A CharFilter that wraps another Reader and attempts to strip out HTML constructs. @version $Id: HTMLStripCharFilter.java 1065312 2011-01-30 16:08:25Z rmuir $
org.elasticsearch.common.lucene.analysis.HTMLStripCharFilter
@author kimchy (shay.banon)

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

  Set<String> escapedTags = null;
  Pattern TAG_NAME_PATTERN = Pattern.compile("[^\\s,]+");


  @Override
  public HTMLStripCharFilter create(Reader input) {
    HTMLStripCharFilter charFilter;
    if (null == escapedTags) {
      charFilter = new HTMLStripCharFilter(input);
    } else {
      charFilter = new HTMLStripCharFilter(input, escapedTags);
    }
    return charFilter;
  }

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

    public void IncrementsOffsetCorrectlyWithAnotherReader() throws IOException {
        int[] expectedOffsets = {0, 5, 10, 15};
        int curPos = 0;


        Tokenizer t = new Tokenizer(
                new HTMLStripCharFilter(new StringReader("test <a href=\"foo\">test</a> test test")), HSpellLoader.readDefaultPrefixes()
        );


        Reference<String> ref = new Reference<String>("");
        while (true) {
            int token_type = t.nextToken(ref);

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter


    @Test
    public void IncrementsOffsetCorrectlyWithAnotherReader2() throws IOException {
        String input = "test1 <a href=\"foo\">testlink</a> test2 test3";


        BaseCharFilter filter = new HTMLStripCharFilter(new StringReader(input));
        Tokenizer t = new Tokenizer(filter, HSpellLoader.readDefaultPrefixes());


        Reference<String> token = new Reference<String>("");


        t.nextToken(token);
        assertEquals(0, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(20, filter.correctOffset(t.getOffset()));
        assertEquals(8, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(33, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(39, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());
    }

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

        return dirHash;
    }


    private static String getTags(File basedir, String path, boolean compressed) {
        char[] content = new char[1024 * 8];
        try (HTMLStripCharFilter r = new HTMLStripCharFilter(getXrefReader(basedir, path, compressed))) {
            int len = r.read(content);
            return new String(content, 0, len);
        } catch (Exception e) {
            OpenGrokLogger.getLogger().log(
                    Level.WARNING, "An error reading tags from " + basedir + path
                    + (compressed ? ".gz" : ""), e);

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

                                    + filename)), null, null, null, filename,
                                    tags, nhits > 100, false, ret);
                        } else if (Genre.XREFABLE == genre && data != null && summarizer != null) {
                            int l;
                            try (Reader r = RuntimeEnvironment.getInstance().isCompressXref() ?
                                     new HTMLStripCharFilter(new BufferedReader(new InputStreamReader(new GZIPInputStream(new FileInputStream(data + Prefix.XREF_P + filename + ".gz"))))) :
                                     new HTMLStripCharFilter(new BufferedReader(new FileReader(data + Prefix.XREF_P + filename)))) {
                                l = r.read(content);
                            }
                            //TODO FIX below fragmenter according to either summarizer or context (to get line numbers, might be hard, since xref writers will need to be fixed too, they generate just one line of html code now :( )
                            Summary sum = summarizer.getSummary(new String(content, 0, l));
                            Fragment fragments[] = sum.getFragments();

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

      return new TokenStreamComponents(source, result);
    }


    @Override
    protected Reader initReader(String fieldName, Reader reader) {
      return new HTMLStripCharFilter(reader);
    }

View Full Code Here

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

        return escapedTags;
    }


    @Override
    public Reader create(Reader tokenStream) {
        return new HTMLStripCharFilter(tokenStream, escapedTags);
    }

View Full Code Here

Examples of org.apache.solr.analysis.HTMLStripCharFilter


  private Object stripHTML(String value, String column) {
    StringBuilder out = new StringBuilder();
    StringReader strReader = new StringReader(value);
    try {
      HTMLStripCharFilter html = new HTMLStripCharFilter(CharReader.get(strReader.markSupported() ? strReader : new BufferedReader(strReader)));
      char[] cbuf = new char[1024 * 10];
      while (true) {
        int count = html.read(cbuf);
        if (count == -1)
          break; // end of stream mark is -1
        if (count > 0)
          out.append(cbuf, 0, count);
      }
      html.close();
    } catch (IOException e) {
      throw new DataImportHandlerException(DataImportHandlerException.SEVERE,
              "Failed stripping HTML for column: " + column, e);
    }
    return out.toString();

View Full Code Here

Examples of org.apache.solr.analysis.HTMLStripCharFilter


  private Object stripHTML(String value, String column) {
    StringBuilder out = new StringBuilder();
    StringReader strReader = new StringReader(value);
    try {
      HTMLStripCharFilter html = new HTMLStripCharFilter(CharReader.get(strReader.markSupported() ? strReader : new BufferedReader(strReader)));
      char[] cbuf = new char[1024 * 10];
      while (true) {
        int count = html.read(cbuf);
        if (count == -1)
          break; // end of stream mark is -1
        if (count > 0)
          out.append(cbuf, 0, count);
      }
      html.close();
    } catch (IOException e) {
      throw new DataImportHandlerException(DataImportHandlerException.SEVERE,
              "Failed stripping HTML for column: " + column, e);
    }
    return out.toString();

View Full Code Here

Examples of org.elasticsearch.common.lucene.analysis.HTMLStripCharFilter

    public int readAheadLimit() {
        return readAheadLimit;
    }


    @Override public CharStream create(CharStream tokenStream) {
        return new HTMLStripCharFilter(tokenStream, escapedTags, readAheadLimit);
    }

View Full Code Here

0 1

TOP

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.